Generación de Subtítulos de Voz en Nvidia Jetson

Introducción

Hoy en día, tenemos muchas reuniones todos los días, pero parte del contenido de las reuniones no está destinado a ser publicado. Enviar el contenido de las reuniones a la nube para grabación y recibir subtítulos de vuelta puede representar una amenaza significativa para la privacidad de las reuniones. Y lo más importante es que perderás el contenido de tu reunión si hay retrasos en internet.

Y aquí te presentamos Generación de Subtítulos de Voz en Jetson, que puede ofrecer servicios de voz a subtítulos en tiempo real mientras evita la filtración de información en internet. El contenido de las reuniones puede ser transcrito y mostrado en pantallas usando un modelo de IA en forma de subtítulos, lo que puede proteger la privacidad de las reuniones y reducir la carga de trabajo del grabador de reuniones.

Configuración de Hardware

reComputer (O otros dispositivos basados en Jetson)

left

Obtener Uno Ahora 🖱️

reSpeaker (O otros micrófonos con interfaz USB)

auto

Obtener Uno Ahora 🖱️

conexión de hardware

pir

Preparar el entorno de ejecución

Paso1. Instalar Riva ASR Server:

Por favor consulta este wiki para instalar Riva ASR Server.

En tu terminal(Ctrl+Alt+T), ingresa sudo docker ps y verás algo como lo siguiente, eso significa que has terminado el primer paso.

pir

Paso2. Instalar flask:

Abre la terminal (Ctrl+Alt+T) y usa el siguiente comando para instalar flask:

pip3 install flask
python3 -c 'import flask; print(flask.__version__)

Si obtienes algo como lo siguiente, eso significa que has terminado este paso.

pir

Paso3. actualizar pip setuptools wheel:

# riva client
git clone --depth=1 --recursive https://github.com/nvidia-riva/python-clients
cd python-clients
sudo pip3 install --upgrade pip setuptools wheel
pip3 install --no-cache-dir --verbose -r requirements.txt
python3 setup.py --verbose bdist_wheel
pip3 install --no-cache-dir --verbose dist/nvidia_riva_client*.whl
python3 -c 'import riva.client; print(riva.client.__version__)'

En tu terminal(Ctrl+Alt+T), ingresa pip --version verás algo como lo siguiente, significa que terminaste de actualizar pip.

pir

En tu terminal(Ctrl+Alt+T), ingresa python3 -c 'import setuptools; print(setuptools.__version__) si obtienes algo como lo siguiente, eso significa que has actualizado setuptools.

pir

En tu terminal(Ctrl+Alt+T), ingresa wheel version verás algo como lo siguiente, significa que terminaste de actualizar wheel.

pir

Paso4. instalar pyaudio:

# pyaudio
sudo apt-get install -y --no-install-recommends python3-pyaudio
python3 -c 'import pyaudio; print(pyaudio.__version__)'

Si tu terminal obtiene algo como lo siguiente, terminaste el último paso, ¡felicitaciones!

pir

Vamos a ejecutarlo

git clone https://github.com/Seeed-Projects/Real-time-Subtitle-Recorder-on-Jetson.git
cd Real-time-Subtitle-Recorder-on-Jetson
python3 recorder.py

Perspectivas del Proyecto

En este proyecto, usamos el Riva ASR Server para capturar datos de la entrada del micrófono en tiempo real y mostrarlos en una página web. En el futuro agregaremos más aplicaciones como traducir un idioma a otro, tener velocidad de respuesta más rápida.

Introducción​

Configuración de Hardware​

Preparar el entorno de ejecución​

Paso1. Instalar Riva ASR Server:​

Paso2. Instalar flask:​

Paso3. actualizar pip setuptools wheel:​

Paso4. instalar pyaudio:​

Vamos a ejecutarlo​

Perspectivas del Proyecto​